目次

目次

当エントリでの実践手順

レシピジョブの作成と実行

レシピジョブの実行結果確認

作成リソースの「お掃除」

まとめ

AWS Glue DataBrew入門チュートリアル実践 #6 – データセットの変換処理実行

#Glue DataBrew入門チュートリアル実践

しんや

2020.11.17

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

先日新しくリリースされたAWS Glueの新機能「AWS Glue DataBrew」。

前述手順では、AWS Glue DataBrewのデータプロファイルの作成及び作成されたデータプロファイルの内容を確認しました。

当エントリでは、次の手順となる手順その6「データセットの変換処理実行」についてその内容を紹介していきます。

Step 6: Transform the dataset - AWS Glue DataBrew

目次

当エントリでの実践手順
レシピジョブの作成と実行
レシピジョブの実行結果確認
作成リソースの「お掃除」
まとめ

当エントリでの実践手順

このステップでは、作成したレシピを使って実際にデータセット全体を変換してみたいと思います。

ジョブが実行されると、DataBrewはデータセット内のすべてのデータにレシピを適用し、変換されたデータをAmazon S3バケットに書き込みます。変換されたデータは、元のデータセットとは別物です。DataBrewはソースデータを変更しません。

※当ステップの手順を実行する前に、予め書き込みが行えるAmazozn S3バケットがアカウント上に存在していることを確認しておいてください。

レシピジョブの作成と実行

レシピで定義した処理をデータセットに対して行うには、「レシピジョブ」が必要となります。ダッシュボードメニューの[JOBS]から[Recipe jobs]タブを開き、[Create job]を押下。

レシピジョブ作成に必要な設定を行っていきます。任意のジョブ名(ここではchess-winner-summary)を入力、ジョブタイプには[Create a recipe job]を指定。

ジョブ入力設定では、チュートリアルで作成したデータセット(chess-games)、レシピも同様に作成済みのもの(chess-project-recipe)を指定。

ジョブ出力設定では、出力したいデータの形式などを指定します。ファイルタイプは以下の様に多彩な選択肢が揃っています。ここではCSVを指定。

その他、S3 locationは予め作成しておいたS3バケット及びフォルダを指定します。

権限についてはこちらも予め手順内で作成したIAM Roleを指定、その他はデフォルト指定のまま[Create and run job]を押下。

レシピジョブの実行結果確認

程なくしてジョブ実行が完了。成功(Succeeded)したことを確認しつつ、[Job Output]列のリンクをクリック。

ジョブ出力の結果出力先指定リンクをクリック。

該当Amazon S3バケット・フォルダに遷移。レシピジョブ実行結果の出力フォルダが別途作成されています。

対象フォルダの中身を確認。ファイルが数個出力されていますね。

中身を確認してみます。以下のような形で、CSV形式でデータが出力されていることを確認出来ました！(でも1ファイル1行だった...この辺まとめられる設定とかはどこかで出来るのかしら...というのがちょっと気になりました)

winner,victory_status,winner_count
black,"other player resigned",1039

作成リソースの「お掃除」

以上でAWS Glue DataBrewのチュートリアルは完了です。作成したリソースを諸々削除するにはそれぞれ以下の手順を実行します。

Step 7: (Optional) Clean up - AWS Glue DataBrew

まとめ

というわけで、AWS Glue DataBrew実践チュートリアルのステップ6「データセットの変換処理実行」の紹介でした。

チュートリアルの実践内容は当エントリ(#6)で完了です。お疲れさまでした！

Glue DataBrew ｜特集カテゴリー｜ Developers.IO

Share this article

関連記事

[レポート] AWSのノーコード・ローコードサービスだけで顧客がローンを滞納するリスクを予測するAIモデルを構築・可視化するワークショップ（FSI305）に参加しました

[レポート] AWSのノーコード・ローコードサービスだけで顧客がローンを滞納するリスクを予測するAIモデルを構築・可視化するワークショップ（FSI305）に参加しました

2022.12.01

[レポート][ワークショップ]GAM205 Analytics for games #GAM205 #reinvent

[レポート][ワークショップ]GAM205 Analytics for games #GAM205 #reinvent

2022.11.30

AWS Glue DataBrewでDatasetをJobで加工してS3 Bucketに出力してみた

AWS Glue DataBrewでDatasetをJobで加工してS3 Bucketに出力してみた

2022.08.23

AWS Glue DataBrewジョブを実行してRedshift Serverlessに直接書き込んでみた

AWS Glue DataBrewジョブを実行してRedshift Serverlessに直接書き込んでみた

2022.08.22

クラスメソッド株式会社

主なカテゴリ

AWS

おすすめ

セキュリティ

リモートワーク

プロダクト

コンテンツ

DevelopersIOとは

お問い合わせ

DevelopersIOについて

AWSに関するご相談

セミナーお知らせメール

会社説明会

運営会社

AWS総合支援サービス

プライバシーポリシー

クッキーポリシー

© Classmethod, Inc. All rights reserved.